Lack of factual correctness is an issue that still plagues state-of-the-art summarization systems despite their impressive progress on generating seemingly fluent summaries. In this paper, we show that factual inconsistency can be caused by irrelevant parts of the input text, which act as confounders. To that end, we leverage information-theoretic measures of causal effects to quantify the amount of confounding and precisely quantify how they affect the summarization performance. Based on insights derived from our theoretical results, we design a simple multi-task model to control such confounding by leveraging human-annotated relevant sentences when available. Crucially, we give a principled characterization of data distributions where such confounding can be large thereby necessitating the use of human annotated relevant sentences to generate factual summaries. Our approach improves faithfulness scores by 20\% over strong baselines on AnswerSumm \citep{fabbri2021answersumm}, a conversation summarization dataset where lack of faithfulness is a significant issue due to the subjective nature of the task. Our best method achieves the highest faithfulness score while also achieving state-of-the-art results on standard metrics like ROUGE and METEOR. We corroborate these improvements through human evaluation.
translated by 谷歌翻译
在过去的几年中,基于深度卷积神经网络(CNN)的图像识别已取得了重大进展。这主要是由于此类网络在挖掘判别对象姿势以及质地和形状的零件信息方面具有强大的能力。这通常不适合细粒度的视觉分类(FGVC),因为它由于阻塞,变形,照明等而表现出较高的类内和较低的阶层差异。表征对象/场景。为此,我们提出了一种方法,该方法可以通过汇总大多数相关图像区域的上下文感知特征及其在区分细颗粒类别中避免边界框和/或可区分的零件注释中的重要性来有效捕获细微的变化。我们的方法的灵感来自最新的自我注意力和图形神经网络(GNNS)方法的启发端到端的学习过程。我们的模型在八个基准数据集上进行了评估,该数据集由细粒对象和人类对象相互作用组成。它的表现优于最先进的方法,其识别准确性很大。
translated by 谷歌翻译
科学出版物的产出成倍增长。因此,跟踪趋势和变化越来越具有挑战性。了解科学文档是下游任务的重要一步,例如知识图构建,文本挖掘和纪律分类。在这个研讨会中,我们从科学出版物的摘要中可以更好地理解关键字和键形酶提取。
translated by 谷歌翻译
贝叶斯神经网络中近似后期的估计不确定性易于进行错误校准,这导致关键任务中的预测过高,这些任务的预测明显不对称或损失明显。在这里,我们通过在深度学习中校准不确定性后的模型上最大化预期效用,扩展了对损失的贝叶斯框架的近似推断,以最大程度地提高预期效用。此外,我们表明,通过损失不确定性告知的决策可以比直接替代方案更大程度地提高诊断性能。我们提出最大的不确定性校准误差(MUCE)作为测量校准置信度的指标,除了其预测外,特别是对于高风险应用程序,其目标是最大程度地减少误差和估计不确定性之间的最坏情况偏差。在实验中,我们通过将Wasserstein距离作为预测的准确性来显示预测误差与估计不确定性之间的相关性。我们评估了我们从X射线图像中检测COVID-19的方法的有效性。实验结果表明,我们的方法大大减少了错误校准,而不会影响模型的准确性并提高基于计算机的诊断的可靠性。
translated by 谷歌翻译
与其他癌症相比,胰腺癌具有最差的预后之一,因为它们已被诊断出癌症已朝着后期阶段发展。当前用于诊断胰腺腺癌的手动组织学分级是耗时的,通常会导致误诊。在数字病理学中,基于AI的癌症分级必须在预测和不确定性量化方面非常准确,以提高可靠性和解释性,对于获得临床医生对技术的信任至关重要。我们提出了MGG自动化胰腺癌分级的贝叶斯卷积神经网络,他对图像进行了染色,以估计模型预测中的不确定性。我们表明,估计的不确定性与预测误差相关。具体而言,它对于使用权衡分类准确性 - 拒绝权衡和错误分类成本的度量标准来设置验收阈值很有用,可以通过超参数控制,并且可以在临床环境中使用。
translated by 谷歌翻译